搜索资源列表
fenci
- 支持java的中文分词程序-support the Chinese word segmentation procedures
javapiler
- 编译原理课程实验,在VC平台实现了java语言的分词程序
fenci
- java版的分词程序,可以灵活生成添加字典。
ictclas4j_0[1].9.1
- 基于java语言的分词系统,可以标注词性、词频等信息,可用于二次开发
paoding-analysis-2.0.4-alpha2
- 一款基于java的分词软件,用来把中文文章分成有意义的单词。
segment
- segment,一个简单的中文分词程序,命令行如下: java -jar segmenter.jar [-b|-g|-8|-s|-t] inputfile.txt -b Big5, -g GB2312, -8 UTF-8, -s simp. chars, -t trad. chars Segmented text will be saved to inputfile.txt.seg
lang
- 采用JAVA语言实现,对汉语分词的词库进行规范,与大家共享
java1
- 一个java的分词程序,希望对大家有用,分词的效率还可以
Classifier4J-0.6-dist
- Classifier4J是一个很好的基于java的分类器,里面有Native bayes和KNN等方法的文本分类.另外还 提供了分词和自动摘要等功能
segmenter
- 一个简单有效的中文分词算法,包含正向最大匹配算法,java实现。
javasegment
- java开发的智能分词系统,经过编译可以运行!
IKAnalyzer2.0.2
- Java lucene开源全文搜索,中文分词组件
lucene-1.4.3
- java分词技术,只实现英文分词,但是该分词算法很经典(来源于apache)-java-term technology, achieving only English Word, but the Word algorithm classic (from apache)
TF/IDF 算法
- 统计词频,和对文档进行分词处理,计算tf-idf值,JAVA实现
IKAnalyzer3.2.8-bin
- IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 -IKAnalyzer is an open source, java based development o
ictclas
- 分词工具,用Java实现,准确率很好,有很强的学习价值。-Segmentation tool, implemented in Java, good accuracy, has a strong learning value.
tfidf
- 文本的词频计算,用到了lucene的分词工具,用java实现-Text of the word frequency calculations, the word used in the sub-lucene tools to achieve with java
mmseg4j-1.0-src.zip
- java 版的中文分词技术 很实用的 正确率可以达到98 以上,java version of the Chinese word technology is practical accuracy can reach more than 98
ICTCLAS50_Windows_32_C
- 由中科院开发的中文分词系统,用C/C++编成,有Java等多种语言借口,适合win32系统。内附例程及接口说明文档-Chinese word segmentation system developed by the Chinese Academy of Sciences, woven C/C++, Java and other languages an excuse for win32 systems. The enclosing routine and interf
BlogClassify
- java实现xml文档分词 提取出文章的主题-xml documents java achieve segmentation to extract the theme of the article